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摘要 : [目的 /意义 ] 针 对 目前 使 用 标签 推荐 方法 所 得 结果 不 理想 的 问题 ,改进 传统 相似 度 计算 方式 ,并 结 
合 多 种 标签 推荐 方法 ,提高 推荐 准确 性 。[ 方 法 /过 程 ] 融合 基于 内 容 与 协同 过 滤 的 推荐 思想 ,利用 LDA 进行 相 
似 度 计算 得 出 资源 与 用 户 的 近 领 集合 ,并 抽取 资源 内 容 关 键 词 ,以 此 构建 标签 混合 推荐 模型 ,最 后 以 “ 豆 闪 读 
书 ” 为 例 对 模型 进行 验证 ,同时 与 几 种 标签 推荐 方法 进行 比较 。[ 结果/ 结论] 在 社会 标注 系统 中 ,必须 考虑 用 户 
=- 资源 -标签 3 个 维度 , 仅 考虑 单一 角度 执 必 会 造成 结果 的 不 完整 ,同时 在 相似 度 计算 时 引入 LDA 能 够 挖 握 潜 
在 语义 关系 ,提高 推荐 质量 , 且 组 合 多 种 方法 取长补短 可 以 令 推 荐 结果 更 为 满意 。 
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局 社 会 标注 是 Web2.0 时 代 一 种 主要 且 有 效 的 网 络 
信息 资源 组 织 方式 , 它 允 许 用 户 使 用 自 定义 的 关键 词 
姑 称 签 来 注释 网 络 中 的 各 种 资源 ,以 便 有 效 组 织 . 检 索 
和 利用 这 些 资源 。 标 签 由 用 户 创 造 ,不 受 任何 限制 ,一 
方 莉 它 反映 了 用 户 对 资源 的 认识 , 另 一 方面 通过 标签 
用 忆 可 以 检索 资源 或 是 寻找 相同 兴趣 的 用 户 "。 社 会 
标 老 在 互联 网 中 得 到 广泛 应 用 的 同时 也 产生 了 许多 问 
题 三 例如 ,由 于 用 户 的 偏好 差异 ,不 同 用 户 会 使 用 不 同 
的 蜂 俭 来 标注 同一 资源 ; 而 社会 标签 的 无 控 性 使 得 用 
户 在 自由 标注 时 会 产生 错误 标签 或 是 无 实际 意义 的 垃 
圾 标签 ,诸多 问题 成 为 网 络 信息 组 织 与 检索 的 障碍 ， 
也 在 一 定 程度 上 降低 了 标签 作用 的 有 效 性 。 而 标签 推 
荐 作为 一 种 有 效 的 方法 ,能够 在 用 户 对 资源 进行 标注 
时 为 其 推荐 标签 , 既 能 改善 用 户 体验 ,也 能 对 用 户 的 标 
注 行为 产生 规范 约束 ,从 而 提高 标签 质量 "1。 目 前 国 
内 外 关于 社会 标注 的 研究 主要 集中 于 资源 推荐 与 用 户 
推荐 ,而 关于 标签 推荐 的 研究 较 少 , 且 研 究 也 仅 限于 如 
基于 内 容 的 标签 推荐 .基于 协同 过 滤 的 标签 推荐 或 是 
基于 关联 规则 的 标签 推荐 等 单一 技术 ,组 合 多 种 技术 
的 研究 不 多 ,标签 系统 中 的 标签 有 多 种 来 源 , 仅 使 用 单 


一 推荐 方法 会 使 结果 片面 ;另外 ,这 些 传统 推荐 技术 未 
考虑 到 标签 间 包 含 的 丰富 语义 信息 或 是 用 户 因 各 种 因 
素 产 生 的 偏好 差异 ,从 而 导致 在 推荐 质量 上 仍 有 所 欠 
缺 。 因 此 ,本 文 提 出 一 种 组 合 多 种 技术 的 标签 混合 推 
荐 方法 ,该 方法 将 基于 内 容 的 标签 推荐 .基于 用 户 的 协 
同 过 滤 与 基于 资源 的 协同 过 滤 3 种 方法 相 结合 ,同时 
将 隐 含 狄 利 克 雷 分 布 (Latent Dirichlet allocation ,LDA) 
引入 到 相似 度 计 算 过 程 中 ,以 主题 概率 分 布 作为 计算 
依据 来 取代 传统 的 计算 方式 ,加 入 深层 语义 知识 ,产生 
基于 相似 资源 和 基于 相似 用 户 的 推荐 标签 ,其 次 抽取 
资源 内 容 的 关键 词 作 为 基于 内 容 的 推荐 标签 ,最 后 融 
合 3 种 结果 为 用 户 进 行 标签 推荐 。 其 意义 在 于 从 3 种 
标签 来 源 角度 出 发 ,融合 多 种 推荐 技术 ,使 推荐 方法 与 
标签 来 源 角度 一 一 对 应 ,提高 数据 稠密 性 ,从 而 避免 单 
一 技术 的 缺陷 。 经 实验 发 现 ,这 种 基于 LDA 的 混合 标 
签 推荐 方法 一 定 程度 上 缓解 了 标签 语义 模糊 性 等 问 
题 ,推荐 结果 也 有 较 大 改进 。 


2 标签 推荐 及 相关 技术 
2.1 标签 推荐 

社会 标签 既是 用 户 兴趣 偏好 的 代表 ,又 能 够 从 不 
同 维度 揭示 资源 特征 ,但 其 过 度 自由 的 特性 导致 系统 
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中 出 现 了 许多 低 质 量 标签 ,在 一 定 程度 上 影响 了 标签 
作用 的 发 挥 “"。 为 了 提高 标签 质量 ,最 直接 的 方法 就 
是 控制 用 户 对 标签 的 使 用 。 但 这 种 方法 因 其 强迫 性 、 
限制 性 ,必然 会 难以 被 用 户 接受 ,同时 也 不 符合 社会 标 
注 的 自由 性 。 因 此 ,标签 推 荐 机 制 应 运 而 生 "。 标 黎 
推荐 是 指 当 某 一 用 户 想 要 对 某 个 资源 进行 标注 时 , 系 
统 结合 用 户 的 标注 情况 .资源 内 容 特征 以 及 系统 中 已 
有 标签 等 信息 ,为 其 推荐 一 系列 相关 标签 进行 选择 。 
标签 推荐 作为 用 户 标 注 时 的 一 种 辅助 工具 ,一 方面 可 
以 为 其 提供 参考 和 建议 ,减轻 用 户 负担 ,提升 用 户 标注 
的 积极 性 , 另 一 方面 也 可 以 提高 标签 的 质量 ,提高 资源 
检索 的 效率 和 准确 率 '% 。 相 比 强制 控制 用 户 对 标签 的 
使 用 ,利用 标签 推荐 这 种 更 为 友好 和 温和 的 建议 式 交 
隔 滞 言 来 适当 规范 用 户 的 标注 行为 ,简化 了 标注 过 程 ， 
改善 了 用 户 体 验 , 更 提高 了 标注 结果 的 质量 ,十 分 具有 
研 帘 意 义 。 
2 各 个 性 化 推荐 技术 
加 目前 ,社会 标注 系统 中 标签 推荐 方法 实际 上 都 借 
蜂王 电子 商务 领域 中 的 个 性 化 推荐 技术 。 国 内 现今 的 
代 侨 化 推荐 技术 主要 有 3 种 :基于 内 容 的 推荐 .协同 过 
渡 h9 推 荐 和 混合 推荐 。 基 于 内 容 的 推荐 其 推荐 依据 来 
所 次 源 内 容 本 身 ,通常 使 用 的 是 文本 内 容 。 协 同 
过 渡 分 为 两 种 ,一 是 基于 资源 的 协同 过 滤 , 二 是 基于 用 
户 蜀 协 同 过 滤 。 这 种 方法 主要 是 通过 计算 用 户 或 是 次 
沈 生 的 相似 度 从 而 进行 推荐 ” 。 由 于 每 种 推荐 技术 各 
有 优 劣 ,因而 混合 推荐 近年 来 被 频繁 提出 ,多 种 推荐 方 
式 隐 取长补短 有 利于 规避 单一 方法 的 缺点 ,提高 推荐 
质 曙 。 当 然 , 随 着 技术 的 进步 推荐 系统 如 今 又 出 现 了 
一 些 新 方法 ,如 基于 关联 规则 的 推荐 ,基于 链 路 预测 的 
推荐 .基于 社会 网 络 信任 关系 的 推荐 等 。 

现今 ,许多 学 者 都 在 上 述 推荐 技术 基础 上 结合 标 
签 特性 提出 了 各 式 各 样 的 标签 推荐 技术 。 国 外 学 者 
M. Tatu 等 ' 将 近邻 法 与 关键 词 提取 法 相 融 合 进行 基 
于 词 标签 的 推荐 ;G. Mishne "利用 近邻 法 从 文档 集 
中 挑选 出 与 待 标注 资源 最 相关 的 K 个 资源 ,并 将 其 标 
签 推荐 给 用 户 ;L. Marinho 等 “利用 标签 - 用 户 - 资 
源 三 者 的 关系 得 到 两 两 间 的 二 维 矩 阵 ,从 而 通过 矩阵 
向 量 发 现 相似 用 户 并 进行 标签 推荐 ;A. Hotho 等 ” 则 
根据 PageRank 算法 提出 了 FolkRank 算法 ,利用 链接 分 
析 实 现 推荐 。 在 国内 , 宋 洪 饮 等 则 对 新 浪 博客 标签 
进行 了 相关 研究 ,提出 了 基于 关键 词 提取 与 博客 文章 
分 类 的 推荐 模型 ;高 兵 " 关注 的 是 问答 式 社区 的 标签 
推荐 技术 ,根据 待 标 引 问 题 的 文本 寻找 相似 且 已 标 引 


一 局 


的 问题 进行 推荐 ; 王 传 豹 "提出 了 基于 协同 过 滤 和 文 
本 相似 度 的 混合 标签 推荐 方法 ; 安 志 伟 "" 提出 了 一 种 
基于 三 部 图 张 量 分 解法 的 标签 推荐 算法 ; 张 亮 " 融合 
用 户 .标签 资源 三 者 间 的 关系 ,直接 利用 LDA 构建 统 
一 主题 模型 进行 标签 推荐 。 
由 此 可 见 :中 在 标签 推荐 系统 中 推荐 技术 大 多 为 
基于 内 容 、 基 于 协同 过 滤 或 是 基于 其 他 一 些 方 法 ,角度 
单一 ,混合 多 种 方法 的 推荐 较 少 ;@ 协 同 过滤 、 张 量 分 
解 等 方法 是 从 用 户 - 资源 -标签 三 者 间 的 关系 出 发 ， 
这 种 仅 分 析 对 象 间 关 系 的 技术 忽略 了 标签 的 语义 与 资 
源 内 容 特征 ;@ 标 签 推荐 对 于 LDA 的 应 用 ,主要 集中 
于 利用 LDA 对 标签 进行 聚 类 .语义 分 析 以 及 直接 利用 
LDA 进行 推荐 , 极 少 将 LDA 与 其 他 标签 推荐 方法 相 结 
合 使 用 。 因 而 ,本 文 针对 以 上 问题 ,从 多 角度 出 发 , 结 
合 目 前 使 用 较 多 的 推荐 技术 ,将 对 象 间 关 系 与 标签 语 
义 内 容 同时 考虑 ,并 借助 LDA 改进 传统 的 相似 度 计 
算 ,为 用 户 进 行 标签 推荐 。 
2.3 LDA 主题 模型 

LDA 是 一 种 无 监督 的 概率 主题 模型 , 常 被 用 来 对 
大 规模 文档 集合 进行 建 模 。 其 基本 思想 基于 一 个 假 
设 : 一 个 用 户 在 写 一 篇 文档 时 ,心中 必定 会 有 一 些 确定 
的 主题 ,有 了 主题 后 用 户 就 必定 会 从 某 个 主题 的 所 有 
单词 池 中 以 一 定 的 概率 选择 一 个 词 来 阐释 该 主题 , 整 
个 文档 就 相当 于 不 同 主题 的 混合 "1 。LDA 核心 思想 如 
公式 (1) 所 示 : 

p( 词 语 | 文档 ) = 之 sg( 词 语 1 主题 ) xp( 主 题 | 
文档 ) 公式 (1) 

LDA 实质 上 是 一 个 以 文档 - 主题 - 词汇 为 层次 结 
构 的 三 层 贝 叶 斯 概率 模型 ,如 图 1 所 示 : 


图 1 LDA 模型 


其 采用 Dirichlet 分 布 作为 概率 主题 模型 多 项 分 布 


的 先 验 分 布 ,在 该 模型 中 ,W 代表 词汇 ,是 唯一 可 观测 
的 变量 ,M 代表 整个 文档 集 ,N 代表 每 篇 文档 包含 
的 总 词 数 ,K 代表 主题 个 数 , 和 B 分 别 代表 文档 - 主 
题 概率 6 和 主题 - 词语 概率 分 布 p 的 先 验 分 布 超 参 
数 ” 。 

LDA 采用 词 袋 的 思想 , 先 以 一 定 的 概率 选取 茶 个 
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主题 ,再 以 一 定 的 概率 选取 该 主题 下 的 某 个 单词 ,不 断 
重复 以 上 步骤 直至 产生 文档 中 所 有 的 词语 ”。 这 种 


推荐 技术 ,如 从 资源 内 容 标签 角度 出 发 采用 基于 内 容 
的 推荐 ,从 资源 热门 标签 角度 出 发 使 用 基于 资源 的 协 


方法 间接 地 对 词汇 进行 模糊 聚 类 ,通过 训练 得 到 每 篇 
文档 在 主题 上 的 分 布 和 每 个 主题 在 词 空 间 上 的 分 布 ， 
从 而 挖掘 文本 信息 , 既 能 衔 量 各 文档 间 的 潜在 语义 关 
系 , 又 有 强大 的 降 维 能 力 ,缓解 数据 稀 琉 问题 ” 。 
此 ,在 相似 度 计 算 时 引入 LDA 主题 模型 ,即便 用 户 使 
用 了 不 同 的 标签 ,或 是 资源 由 不 同 的 特征 词 所 表示 ,只 
要 这 些 词 属于 相同 主题 ,就 可 以 很 好 地 度量 相似 性 , 提 
高 稀 琉 环境 下 的 推荐 质量 ” 。 


3 ”推荐 框架 描述 与 数据 预 处 理 
3.1 标签 推荐 模型 描述 


一 目前 ,标签 推荐 方法 虽 多 种 多 样 ,但 每 种 方法 都 有 
其 施法 避免 的 缺点 ,另外 标签 推荐 系统 与 普通 电子 商 


同 过 滤 , 而 从 用 户 兴趣 标签 角度 看 则 使 用 基于 用 户 的 
协同 过 滤 ,然后 将 这 3 种 推荐 技术 的 结果 相 融 合 , 则 最 
终 产 生 的 推荐 结果 必定 包含 所 有 标签 来 源 ,覆盖 用 户 
-标签 - 资源 三 方面 ,同时 该 方法 结合 对 象 间 的 关系 
与 标签 的 语义 进行 分 析 , 将 数据 粗 粒 度 化 使 其 变 得 更 
加 稠密 ,从 而 避免 了 单一 方法 的 不 足 。 

总 体 推荐 框架 见 图 2, 共 5 个 阶段 一 一 数据 收集 、 
数据 预 处 理 .LDA 训练 .相似 度 计算 和 推荐 结果 生成 。 
该 模型 中 ,假设 用 户 集合 U 中 有 mm 名 用 户 ,图书 资源 
集合 R 中 有 n 本 图 书 ,标签 集合 T 中 有 p 个 标签 ,针对 
用 户 ueU 在 标注 资源 re R 时 ,系统 通过 建立 资源 - 
司 语 语料库 和 用 户 -标签 语料库 ,使 用 LDA 得 到 资源 
和 用 户 在 主题 上 的 分 布 概率 从 而 进行 相似 度 计算 ,并 


二 


各 领域 中 的 推荐 系统 不 同 ,其 含有 三 大 元 素 , 即 用 户 
栋 柳 -资源 ,标签 作为 中 介 将 用 户 与 资源 联系 起 来 , 因 
而 丁 包 含 着 资源 内 容 标签 资源 热门 标签 .用户 兴趣 标 
笑 83 种 标签 来 源 , 且 其 特点 各 不 相同 * ,如 果 仅 从 某 
-SB 角度 进行 推荐 ,会 导致 数据 有 所 缺失 ,必然 会 造成 
绪 轩 的 偏差 与 不 全 面 。 因 此 ,针对 如 何 把 多 种 标签 来 
源 融 合 在 一 起 从 而 提升 标签 推荐 的 准确 性 ,本 文 就 以 
泪 宫 推荐 为 突破 口 提出 了 该 推荐 模型 ( 见 图 2) ,其 融 


合 的 原理 就 在 于 首先 依据 不 同 的 标签 来 源 采 用 不 同 的 


< 


寻找 用 户 的 近邻 用 户 集 和 资源 + 的 近邻 资源 集 , 最 
后 将 从 相似 资源 与 相似 用 户 中 得 到 的 推荐 标签 与 从 资 
源 中 抽取 的 关键 词 相 结 合 ,为 用 户 u 推荐 相关 标签 te 
T。 由 于 本 文 数据 量 很 少 ,因此 文中 对 所 提 到 的 k 值 等 
相关 设 定 不 做 讨论 ,重点 在 于 清晰 论述 标签 推荐 模型 
的 构建 及 其 实现 ,同时 根据 国内 外 相关 文献 ,一 般 LDA 
模型 的 参数 取 值 a = 50/k (kk 为 主题 个 数 ),B = 
0.011”1 ,本 文 就 以 此 参数 为 基准 进行 建 模 。 


图 2 标签 推荐 模型 框架 


3.2 ”实验 数据 
3.2.1 数据 收集 ” 豆 斩 网 是 国内 较为 热门 的 社会 标 
注 网 站 ,在 该 网 站 中 ,用 户 能 为 自己 所 喜欢 的 资源 进行 


趣 点 ,也 能 通过 标签 找到 与 自己 标注 同一 资源 的 用 户 ， 
寻找 兴趣 相同 的 伙伴 。 因 此 本 文 以 豆 办 网 的 “ 豆 准 
读书 "频道 为 研究 对 象 ,结合 相关 分 析 过 程 阐述 标签 推 


标注 ,标注 范围 主要 包括 图 书 .音乐 .电影 等 方面 ,用 户 
可 以 通过 标签 浏览 标注 了 同一 标签 的 资源 找到 新 的 兴 
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荐 模型 。 本 文 从 “ 豆 因 读书 ”频道 中 通过 人 工 浏览 采 
集 的 方式 随机 选取 了 25 名 用 户 , 并 从 这 25 名 用 户 的 


ChinaXiv 合 作 期 刊 


能 回 香 ， 窦 燕 . 基 于 LDA 主题 模型 的 标签 混合 推荐 研究 [J]. 图 书 情报 工作 ,2018 ,62(3) :104 - 113. 


“在 读 “ 想 读 “ 读 过 ”3 个 栏目 中 获取 其 图 书 名 称 、 图 
书简 介 、 每 本 图 书 的 常用 标签 (10 个 ) 和 每 个 用 户 标注 
相关 图 书 的 标签 这 些 数 据 作 为 实验 研究 的 基础 。 
3.2.2 数据 预 处 理 ”首先 利用 中 国 科学 院 的 NLPIR 
汉语 分 词 系统 对 图 书简 介 及 不 规范 的 标签 进行 分 词 ， 
并 利用 停 用 词 表 过 滤 掉 无 实际 意义 的 词 ( 如 “ 响 ”“ 就 ” 
“ 嘿 " 等 ) 以 及 一 些 特殊 符号 。 同 时 ,对 于 含有 英文 的 
标签 ,一 律 将 其 转换 成 小 写 形式 。 男 外 ,图 书 名 称 、 图 
书 作 者 名 等 专 有 名 词 是 描述 资源 特征 的 重要 部 分 ,也 
是 标签 推荐 的 关键 来 源 ,因而 可 以 利用 NLPIR 的 用 户 
自 定义 词典 功能 ,将 这 些 词 添加 进 自 定义 词典 中 ,在 分 
词 处 理 时 予以 保留 。 经 处 理 后 ,得 到 的 数据 为 :25 名 
用 户 、135 本 图 书 资源 及 其 内 容 简 介 、592 个 图 书 常用 
标签 和 234 个 用 户 标 签 ,如 表 1、 表 2 所 示 : 


之 表 1 图 书 资源 .简介 及 标签 数据 集 ” 

搞 司 图 书 名 称 简介 内 容 标签 

呈 《昨日 的 世界 》 亿 满 ; 真 尝 ;……; 心 。 芯 威 格 ;传记 ;……; 

© 迹 新 知 三 联 书店 

6 《大 数据 经 济 》 中 国 ;互联 网 ;……; 大 数据 ; 互联 网 ; 

[oe) 日 常 创业 

加 《毛泽东 传记 》 罗斯 . 特 里 尔 ; 传记 ;毛泽东 ;…… 

CD 形象 人 物 

GN 《总统 总 是 靠不住 》 信件 ;美国 ;……; 监 。 林 达 ;美国 ;……….; 启 

OO 加 芝 

SN 《浩荡 两 千年 中 国 ;企业 ;……; 企 。 吴 晓 波 ; 商 业 ;……; 

~y | 经 济 史 

< 《乡土 中 国 》 社会 学 家 ; 费 孝 通 ; 社会 学 ; 费 孝 通 

E 《 菊 与 刀 》 本 尼 迪 克 特 ; 菊 与 ”日 本 ;文化 ;……; 美 

= 刀 ;……; 文 化 

-和 (全球 通史 》 此 界 ; 历 史 ;……; 时 历史 ;世界 史 ;……; 

© 有 全 球 

9 《朱元璋 传 》 朱元璋 ;历史 ;……; 传记 ;历史 ;……; 中 
基础 国 

10 《中 国 大 历史 》 中 国 ; 历 史 ;……; 衡 。 历史 ;黄仁宇 ;……; 
量 历史 学 

11 《影响 力 》 政治 家 ; 影响 力 ; 心理 学 ; 影响 力 ; 
ps 就 范 …… ;经济 

12 《黄金 时 代 》 文革 ;时 期 阴 ”王小波 ;黄金 时 代 ; 
影 … ;大 陆 

13 ” 《挪威 的 森林 )》 动人 心 弦 ; 平缓 ， 村 上 春 树 ;挪威 的 森 
sa 人 生 林 ;……; 文 学 

14 《深度 案例 思考 法 ) ”思考 ;逻辑 ;……; 能 思维; 方法论 
力 后 浪 

15 《硅谷 之 谜 》 颠覆 ; 信息 长 ”互联 网 ;吴军 
盛 不 赛 文化 

135 《1984》 1984; 杰 出 ;……; 经 ”乔治 奥 威 尔 ; 反 乌 
典 托 邦 ;……; 英 国文 


表 2， 用户、 图书 及 其 标签 数据 集 '*” 


编号 户 图 书 名 称 标签 

A ”路 过 晴 紧 《 菊 与 刀 》 日 本 ;文化 ;社会 ;美国 ;历史 
《人 类 简 史 》 历史 ;文化 ;社会 
《万 历 十 五 年 》 历史 ;中 国 

B Banyan 《乡土 中 国 》 费 孝 通 ;乡土 中 国 ;社会 学 ;人 类 

学 ;经 典 

《浪潮 之 题 》 互联 网 ;IT; 商 业 ; 历 史 
《挪威 的 森林 》 村 上 春 树 ;日 本 


C 飞扬 《人 民 的 正义 》 中 国 ; 周 梅森 ;政治 ;小 说 
《武则天 传 》 林语堂 ;中 国 ; 历 史 ; 小 说 
《天 龙 八 部 》 金庸 ;武侠 ;小 说 ;中 国 
《全 球 通史 》 历史 ;世界 史 
《从 0 到 1: 开 启 商业 ”美国 ;经 济 学 ;互联 网 
与 未 来 的 秘密 》 


加 


《长 尾 理 论 》 


经 济 ;经 济 学 


4 基于 LDA 的 标签 混合 推荐 


4.1 资源 主题 模型 训练 及 计算 
4.1.1 资源 -主题 模型 训练 ”经 过 3.2 节 数据 预 处 
理 后 ,对 于 任意 一 本 图 书 资源 z 都 由 n 个 简介 词 w 表 
示 , 见 表 3。 把 图 书 看 作文 档 , 简 介词 看 作文 档 中 的 词 
语 ,在 此 基础 上 利用 LDA 进行 建 模 , 可 以 得 到 资源 - 
主题 概率 分 布 及 主题 - 词语 概率 分 布 ,而 本 文 后 续 计 

只 需 用 到 资源 在 主题 上 的 概率 分 布 。 利 用 python 及 
其 LDA 工具 包 对 表 3 进行 模型 训练 , 取 主 题 数 k=15， 
经 训练 后 得 到 资源 - 主题 概率 分 布 , 即 每 一 个 资源 中 
会 出 现 该 主题 的 概率 大 小 ,结果 见 表 4。 

表 3 资源 -词语 矩阵 


图 书 编号 简介 特征 词 

1 饱满 ; 真 执 ;感情 ;…… ;心迹 

2 中 国 ;互联 网 ;行业 ;……; 日 党 

3 罗斯 ， 特 里 尔 ; 叙 述 形象 

4 信件 ;美国 ;总 统 ; 监督 

5 中 国 ;企业 ;研究 ;…… ;企业 

6 社会 学 家 ; 费 孝 通 ;教授 研究 者 
7 本 尼 迪 克 特 ; 菊 与 刀 ; 日 本 ;: 文化 
135 1984; 杰 出 ;政治 ;……; 经 典 
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表 4 资源 - 主题 概率 分 布 矩 阵 

图 书 ， 

编号 topicl topic2 topic3 topic4 topicl5 
1 0.003 39 0.07119 0.37627 0.00339 ene 0.071 19 
2 0.02675 0.39618 0.00127 0.06497 ei 0.001 27 
3 0.00198 0.00198 0.23960 0.02178 eee 0.001 98 
4 0.00426 0.00426 0.00426 0.04681 ii 0.089 36 
5 0.140 87 0.21043 0.03652 0.07130 eee 0.001 74 
6 0.00274 0.00274 0.03014 0.00274 ee: 0. 002 74 
7 0.001 34 0.00134 0.01477 0.00134 eee 0.001 34 
135 0.00299 0.00299 0.00299 0.48060 ie 0.331 34 


4.1.2 相似 度 计算 

(1) 主题 概率 距离 。 传 统 的 协同 过 滤 技术 中 常 使 
用 余弦 相似 度 或 是 皮尔 逊 相关 系数 来 计算 相似 度 , 但 
由 于 本 文 的 计算 依据 是 资源 在 主题 概率 上 的 分 布 , 因 


此 极 能 直接 使 用 传统 的 计算 公式 。KL ( Kullback- 


Leiiler) 散 度 ,又 称 KL 


之 国 的 距离 ,如 公式 (2) 所 示 : 


¢ Di(p,q) = Di 


公式 (2) 


i 


E 离 ,常用 来 计算 两 个 概率 分 布 
公式 (2) 


Pp 和 d 为 两 个 概率 分 布 , 且 对 于 任意 i， 


mw =4i 时 ,Du(p,q) =0。 但 KL 散 度 是 一 个 非 对 称 


性 下 离 ， 因此 ,为 了 便于 计算 ,往往 使 


( Gorsen -Shannon ) 散 度 ,如 公式 (3 ) 所 示 : 


pCp,q) -= 工 


Sp 


A) +Dal(q,P 


用 其 对 称 公 式 JS 


ET 
公式 (3) 


CA 式 G) 中 p 和 4 同样 为 两 个 概率 分 布 ,该 式 的 区 


(2) 和 矩阵 转换 。 表 5 为 图 书 资源 间 的 距离 差异 , 根 
据 公 式 (3) 的 描述 可 知 数值 越 小 两 个 个 体 间 距离 越 


近 ,为 方便 后 续 计 算 , 需 将 其 利用 公式 (4) 转换 成 相似 
度 和 矩阵 。 
a L 公式 (4) 


(1+D(a,b)) 

在 公式 (4) 中 ,Sim(a,b) 为 图 书 资源 a 和 b 之 间 
的 相似 度 ,D(a,b) 为 a 和 上 b 之 间 的 主题 分 布 距 离 ,分 
母 加 1 是 为 了 防止 距离 为 0 时 带 来 的 影响 ,Sim 值 越 
大 ,表示 二 者 越 相似 。 通 过 公式 (4) 计 算 结果 如 表 6 所 


未 : 
表 6 资源 相似 矩阵 
。 1 5 3 4 135 
1 1 0.715 06 0.87955 0.75496 eo.e 0.661 73 
2 0.715 06 1 0.748 41 0.693 14 eee 0. 660 20 
3 0.87955 0.748 41 1 0.71991 pe: 0.630 69 
4 0.75496 0.693 14 0.719 91 1 0.713 08 
5 0.76242 0.828 65 0.79066 0.72744 ei: 0. 666 84 
6 0.75373 0.72338 0.80579 0.74057 ee 0. 664 05 
7 0.68755 0.67028 0.72284 0.68129 ee 0. 685 33 
135 0.66173 0.66020 0.63069 0.71308 ee 1 
4.2 用 户主 题 模 型 训练 及 计算 
4.2.1 用 户 - 主 题 模型 训练 ”将 用 户 看 作为 文档 ,用 


户 所 使 用 的 标签 视 为 文档 中 的 词语 , 见 表 7。 利 用 py- 
thon 对 表 7 进行 LDA 建 模 , 取 主题 数 K =5, 经 训练 后 
得 到 用 户 - 主题 概率 分 布 矩 阵 ,结果 见 表 8。 
表 7 ”用户 -标签 矩阵 


[2 户 编号 标签 
辣 为 [ou ， 即 5 散 度 值 越 趋向 于 0, 则 两 个 概率 间 村 
A 日 本 ;文化 ;社会 ;……; 随 笔 
的 距离 越 近 , 值 越 趋向 于 1, 则 表明 两 个 概率 距离 越 远 。 
i B 费 孝 通 ;乡土 中 国 ;社会 学 ;……; 日 本 
本 文选 择 此 距离 公式 ,以 表 4 为 基础 ,计算 出 两 本 ee 
概率 分 布 的 距离 ,结果 如 表 5 所 示 a 
司 主题 , 乡 : 
图 书 资源 之 间 主 是 A D 日 本 ;人 类 学 ;文化 ;……; 近 代 史 
表 5 资源 间 概 率 分 布 距离 矩阵 A 
T , , ,oo 本 F 大 数据 ;数据 挖掘 ;互联 网 ;……; 全 球 化 
汕 宁 
1 0 0.398 48 0.13694 0.32458 ee 0.511 19 ° 历史 ;社会 学 ;社会 ;……; 失 洲 的 秘 符 
2 0.398 48 0 0.33617 0.44271 .0.2 CE 
3 0.13694 0.33617 0 0.38906 ee. 0. 585 57 Y 历史 ;世界 史 ; 美 国 ;…… ;经 济 学 
4 0.32458 0.442 71 0.389 06 i 0.402 36 rn es 
5 0.31161 0.20678 0.26477 0.37469 2... 0.499 62 . 相似 度 计算 
6 0.32673 0.38239 0.24102 0.35032 .0... 0.505 9 (1) 主题 概率 距离 。 在 表 8 的 基础 上 ,利用 公式 
7 0.45444 0.49191 0.38344 0.46781 ee. 0.459 16 (3) 计 算出 两 个 用 户 在 主题 概率 分 布 上 的 距离 ,结果 
EEC 见 表 9。 
135 0.23089 0.57291 0.31884 0.6147 2.... 0 
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表 8 用 户 - 主题 概率 分 布 矩 阵 


基础 上 ,产生 基于 相似 资源 与 基于 相似 


用 户 的 推荐 ,并 


融合 基于 内 容 的 标签 推荐 形成 最 终 标 签 推 荐 结果 从 而 


这 一 推荐 过 程 的 基本 


,在 计算 出 资源 
源 re R 最 为 相 


个 标签 。 具 体 步 


P 所 有 资源 的 相 


公式 (5) 


用 户 
编号 topicl topic2 topic3 topic4 topic5 、 WS 
曾 释 整个 推荐 标签 生成 过 程 。 
A 0.23871 0.00215 0.75484 0.00215 € 0.00215 a ee 
4.3.1 基于 相似 资源 的 推荐 
B 0.24267 0.29600 0.37600 0.00267 0.08267 本 ER ne 
思想 是 采用 基于 相似 资源 的 协同 过 滤 
C 0.30149 0.09254 0.60000 0.00299 0.002 99 人 ee 
相似 度 之 后 对 其 降序 排序 ,将 与 目标 资 
D 0.35701 0.07664 0.56262 0.00187 0.001 87 i 、 、 四 a 
似 的 m, 个 资源 作为 其 近邻 资源 集合 ,对 这 些 资源 的 热 
E 0.29320 0.07961 0.50680 0.00194 0.11845 a ee 
门 标签 加 权 排 序 , 最 后 推荐 靠 前 的 
F 0.12157 0.00392 0.27843 0.35686 0.239 22 
又 如 下 : 
G 0.00247 0.12593 0.47160 0.39753 0.00247 E _ ， 
UN RS (1) 选 择 目标 资源 +, 将 其 与 系统 
Y 0.36727 0.04000 0.29455 0.00364 0.29455 似 度 进行 降序 排列 。 
(2) 选 择 最 靠 前 的 m 个 相似 资源 生成 近邻 资源 
表 9 用 户 间 概 率 分 布 距离 矩阵 集 R， 
人 A B c 1 Y (3) 将 近邻 资源 集中 所 有 资源 的 热门 标签 进行 合 
Eis 
> 省 与 十 于 每 .个 标 太 重 可 从 下 
A 0 0.153 71 0.03401 0.03533 ee 0. 166 02 并 与 加 权 排序 。 对 于 每 一 个 标签 1, 其 权重 如 公式 (5) 
GD 0.153 71 0 0.06578 0.07414 ee 0.095 61 所 示 : 
六 0.034 01 0.065 78 0 0.001 98 eee. 0. 128 36 W(t) = ,nSim(r,r’ ) x Freq(t) 
后 0.035 33 0.074 14 0.001 98 0 0.121 48 公式 (5 ) 中 ,Sim(r,r” ) 为 目标 资源 与 资源 r’ 的 
fy ® 0.073 44 0.04085 0.03737 0.03919 ee 0.039 16 相似 度 , Freq (1) 为 标签 t 的 出 现 频 率 。 
ES 0.26223 0.24401 0.26708 0.27138 eee. 0.157 26 和 9 A g 
Ne (4) 对 于 排序 过 后 的 标签 ,选择 靠 前 的 n 个 作为 
ep 0.253 0.23333 0.25474 ieee 0.367 2 | es 、 
0 基于 相似 资源 的 推荐 结果 ,并 将 其 权重 归 一 化 。 
, 0.16602 0.09561 0.12836 0.12148 ee 0 运用 以 上 步骤 ,得 到 目标 资源 的 近邻 资源 集 和 基 


例 放 矩阵 ,结果 如 表 10 所 示 : 


二 (2 ) 算 阵 转 换 。 利 用 公式 (4) 将 此 矩阵 转换 为 相 


表 10 ”用户 相 似 矩 阵 
机 一 A B C 下 y 
编写 
人 了 1 0.86677 0.967 11 0.96588 ee 0.857 62 
B 0.866 77 1 0.938 28 0.93098 i: 0.912 73 
C 0.967 11 0.938 28 1 0.99800 i 0. 886 24 
D 0.965 88 0.93098 0.998 02 i 0. 891 68 
E 0.931 58 0.96075 0.96398 0.96229 .ei 0.962 32 
F 0.79225 0.80385 0.78922 0.78655 ee: 0.864 11 
G 0.791 16 0.79808 0.81081 0.79698 eee: 0.731 42 
和 0.85762 0.91273 0.88624 0.89168 eee: 1 
4.3 推荐 标签 生成 


为 直观 显示 标签 推荐 过 程 ,本 文 随 机 选取 用 户 
“enenn” 并 以 其 标注 图 书 资源 《 菊 与 刀 》 为 例 , 在 上 述 
得 出 资源 相似 度 ( 见 表 6) 与 用 户 相 似 度 ( 见 表 10) 的 


于 相似 资源 的 标签 推荐 候选 集 A ,如 表 11、 表 12 所 示 : 


表 11 近邻 资源 集 
《00 个 、 《 叶 隐 《中 国 大 《 乌 合 
相似 度 理由 》 《起 十 着》 闻 书 》 历史 )》 之 众 》 
《 菊 与 刀 》 0.891 40 0.891 29 0.886 28 0.871 26 0.835 16 


通过 对 目标 资源 《 菊 与 刀 》 进 行 了 解 ,发 现 该 资源 
是 描写 日 本 文化 以 及 对 日 本 民族 .历史 和 社会 等 各 方 
面 进 行 研究 的 一 本 书 ,结合 表 12 的 推荐 结果 可 以 看 
出 ,基于 相似 资源 所 推荐 的 标签 与 该 资源 内 容 的 特征 
联系 程度 十 分 紧密 ,能 够 满足 用 户 标注 时 的 基本 需求 ， 
且 该 方法 未 涉及 到 任何 用 户 相 关 因素 ,也 不 会 受到 文 
本 内 容 字 数 限制 ,因而 稳定 性 较 好 ,但 其 推荐 结果 比较 
宽泛 ,重复 度 较 高 , 且 推 荐 的 都 是 系统 中 资源 的 热门 标 
签 ,社会 化 因素 高 ,也 未 考虑 到 用 户 的 兴趣 ,无 法 推荐 
新 疾 的 标签 , 可见, 基于 相似 资源 的 推荐 结果 仍 有 
缺陷 。 


表 12 标签 推荐 候选 集 A 


标签 文化 历史 日 本 人 文 日 本 文化 武士 道 中 国 日 本 研究 社会 学 社会 
权重 0.28208 0.18259 0.10324 0.10266 0.10324 0.04584 0.04546 0.04584 0.0452 0.044 52 
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4.3.2 基于 相似 用 户 的 推荐 ”在 计算 出 用 户 之 间 的 
相似 度 后 ,寻找 与 目标 用 户 ueU 最 相似 的 且 标注 过 目 
标 资源 的 m, 个 用 户 作为 近邻 用 户 集合 ,然后 将 其 用 于 
标注 目标 资源 的 标签 进行 加 权 排序 ,推荐 靠 前 n, 个 标 
签 。 具 体 步骤 如 下 ; 

(1) 选 择 目标 用 户 u, 将 其 与 系统 中 各 用 户 相似 度 
进行 降序 排列 。 

(2) 选 择 最 靠 前 的 且 标 注 过 目标 资源 + 的 m, 个 用 
户 为 近邻 用 户 集 U? 。 

(3) 将 近邻 用 户 集中 的 用 户 所 有 标注 过 目标 资源 
的 标签 进行 合并 与 加 权 排序 。 对 于 每 一 个 标签 ,其 权 
重 如 公式 (6) 所 示 : 

W(1) = Ev Sim(u,u’ ) x Freg(t) 公式 (6) 
本 公式 (6) 中 Sim(u,u’ ) 为 目标 用 户 u 与 用 户 的 
相似 度 ,Freq(t) 为 标签 + 的 出 现 频率 。 
〇 (4) 对 于 排序 过 后 的 标签 ,选择 靠 前 的 n, 个 作为 
法 相似 用 户 的 推荐 结果 ,并 将 其 权重 归 一 化 。 

@ 〇 运用 以 上 步骤 ,得 到 目标 用 户 的 近邻 用 户 集 和 基 
了 汽 相 似 用 户 的 标签 推荐 候选 集 B, 如 表 13 . 表 14 所 示 : 


表 13 近邻 用 户 集 
CSN 似 度 飞扬 路 过 晴 昨 。” ”新 青年 Banyan 
( 0.998 02 0.965 88 0.950 74 0.930 98 


CS 
senenn 


> 表 14 标签 推荐 候选 集 B 
标签 4 日 本 ”美国 ”社会 学 ”文化 ”人 类 学 ”历史 ”人文 
权 栈 -0. 484 78 0.123 78 0.121 59 0.120 80 0.118 61 0.030 44 0.029 34 


,三 分 析 表 14 ,并 与 表 12 和 表 15 比较 ,该 推荐 方法 考 
虑 到 了 用 户 偏好 的 因素 ,因此 推荐 了 一 些 个 性 化 标签 ， 
如 “美国 “人 类 学 "这 两 个 标签 并 未 在 基于 相似 资源 
的 推荐 结果 ( 表 12) 中 出 现 ,但 是 考虑 到 《 菊 与 刀 》 的 作 
者 是 美国 的 著名 人 类 学 家 ,该 书 也 分 析 研 究 了 日 本 整 
个 民族 的 特性 及 日 本 人 的 性 格 特征 等 ,因此 这 两 个 标 
签 对 于 描述 此 书 来 说 是 十 分 重要 的 ,可 见 基于 相似 用 
户 的 标签 推荐 能 够 提高 标签 的 新 颖 性 ,而 较 之 于 基于 
资源 内 容 的 推荐 结果 ( 表 15 ) ,该 方法 的 结果 精度 更 
好 ,内 容 更 全 面 ,但 也 正 是 因为 考虑 到 了 用 户 因素 ,所 
以 存在 冷 启动 等 问题 。 

4.3.3 基于 内 容 的 推荐 ”资源 的 内 容 特征 信息 可 以 
直观 地 揭示 资源 的 属性 ,是 推荐 标签 的 重要 来 源 之 一 ， 
且 它 不 需要 依赖 用 户 行为 信息 的 优点 可 以 很 好 地 弥补 
基于 协同 过 滤 技 术 存在 的 问题 。 本 文选 择 TF -IDF 特 
征 词 抽取 技术 作为 基于 内 容 的 标签 推荐 方法 。 


TF -IDF( Term Frequency-Inverse Document Frequen- 
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cy) 是 一 种 在 信息 检索 .文本 分 类 等 领域 中 常用 的 评价 
一 个 词语 在 文档 集中 对 于 某 一 文档 的 重要 性 的 加 权 技 
术 。TF-IDF 的 基本 思想 是 ,假如 一 个 词 在 某 篇 文档 中 
出 现 频 率 非常 高 而 在 其 他 文档 中 出 现 频率 极 小 ,那么 
这 个 词 对 于 该 篇 文档 来 说 就 十 分 重要 ,区 分 能 力 较 
好 。 一 个 词 的 TF-JDF 计算 公式 如 公式 (7) 所 示 : 


7 


公式 (7) 


公式 (7) 中 ,nj 表示 特征 词 t; 在 文档 dj 中 出 现 的 
次 数 ,分 母 则 表示 在 文档 dj 中 所 有 词 出 现 的 次 数 总 
和 ,N 表示 文档 总 数 ,n; 表示 出 现 特征 词 i; 的 文档 
数 “ 。 可 以 看 出 ,TF-IDF 值 高 的 那些 词 通常 是 描述 文 
档 内 容 特 征 的 最 佳 词 项 ”。 具 体 步骤 如 下 : 

(1) 利用 3.2 方 中 对 图 书简 介 内 容 进 行 预 处 理 后 
的 包含 各 简介 特征 词 的 文档 集合 ,利用 公式 (7) 计算 
所 有 词 的 权重 ; 

(2) 对 计算 结果 进行 降序 排序 后 ,选择 靠 前 的 n， 
个 词 作 为 基于 资源 内 容 关 键 词 的 推荐 结果 ,并 将 其 权 
重 归 一 化 。 

经 由 以 上 步骤 得 到 基于 内 容 的 标签 推荐 候选 集 
C ,如 表 15 所 示 : 

表 15 标签 推荐 候选 集 C 
标签 日 本 文化 菊 与 刀 


权重 0.490 81 0. 149 02 


. N 
Wy = xidf. = Xlog(7 ) 


大 Ny 


本 尼 迪 克 特 矛盾 
0.099 56 


0.187 70 0.072 92 


与 前 两 种 推荐 结果 ( 表 12、 表 14) 相 比 ,基于 内 容 
的 标签 推荐 能 够 直接 揭示 资源 的 各 种 属性 ,如 表 15 中 
“日 本 “文化 ”描述 了 资源 的 内 容 特 征 , 而 “ 菊 与 思 ” 
“本 尼 迪 元 特 ”描述 了 资源 的 书 名 、 作 者 两 个 外 部 特 
征 ,因此 其 推荐 结果 精确 , 且 不 受用 户 因 素 影响 ,有 效 
避免 了 冷 启动 的 问题 。 但 由 于 文本 字数 限制 等 原因 ， 
其 推荐 结果 较为 狭 罕 ,不 够 全 面 ,并 出 现 了 不 适合 描述 
本 书 内 容 的 标签 ,如 “矛盾 ” ,因此 ,对 于 文本 内 容 充 足 
的 资源 来 说 ,该 方法 或 许 会 更 加 适用 。 
4.4 推荐 结果 生成 

经 过 上 述 计算 ,得 到 的 表 12、 表 14、 表 15 分 别 为 
目标 用 户 u 和 目标 资源 + 的 基于 相似 资源 ,相似 用 户 
以 及 基于 内 容 的 3 种 标签 推荐 候选 集 。 这 3 种 结果 则 
分 别 对 应 了 标签 系统 中 标签 .用户 、 资 源 3 种 角度 的 标 
签 来 源 , 即 资源 热门 标签 .用户 兴趣 标签 .资源 内 容 标 
签 。 因 为 这 三 大 元 素 共 同 构成 了 社会 标注 系统 ,所 以 
认为 它们 的 重要 程度 是 相 一 致 的 ,因而 在 对 这 3 种 推 
大 结果 进行 融合 时 ,采用 加 权 计 算 方 法 ,分 别 将 它们 各 


能 回 香 ， 窦 菩 . 基 于 LDA 主题 模型 的 标签 混合 推荐 研究 [J]. 图 书 情报 工作 ,2018 ,62(3) :104 - 113. 


自得 出 的 结果 权重 系数 进行 归 一 化 处 理 ,然后 将 权重 
相 加 并 按 降序 排列 ,选择 最 靠 前 的 n, 标签 作为 最 终 推 
荐 结果 提交 给 目标 用 户 u。 因 豆瓣 读书 中 推荐 给 用 户 


10 个 标签 。 
经 计算 后 ,对 于 目标 用 户 enenn 在 标注 目标 资源 
《 菊 与 刀 》 时 ,系统 最 终 将 为 其 推荐 的 标签 结果 如 表 16 


的 标签 个 数 为 10 个 ,因此 本 文 最 终 也 同样 向 用 户 推荐 


所 示 : 


表 16 标签 推荐 最 终结 果 


标签 日 本 文化 历史 社会 学 菊 与 刀 人 文 美国 人 类 学 日 本 文化 本 尼 迪 克 特 
权重 1.078 83 0.59059 0.21303 0.16611 0.14902 0.13200 0.12378 0.11861 0.10324 0.099 56 
4.5 结果 评价 与 分 析 无 法 避免 的 缺陷 。 


为 了 验证 推荐 结果 的 准确 度 ,采用 精确 率 ( Preci- 
sions) 、 召 回 率 ( Recall) \.F, 值 为 评价 指标 。 其 公式 如 
公式 (8) - (10) 所 示 : 

TP 


oP 八 - 
Precision TP i FP 公式 (8) 
TT TP 
Re 刀 八 环 
sRecall TP 4 FP 公式 (9) 
C 3 r 2 x Precision x Recall 公式 (10) 


~ Precision + Recall 


之 式 中 TP 表示 推荐 正确 的 标签 个 数 ,FP 表示 推荐 
误 的 标签 个 数 ,FN 表示 原本 应 该 被 推荐 但 是 却 没有 


CO 随机 抽取 实验 数据 的 80% 作为 训练 集 , 剩 下 的 
20 史 作为 测试 集 对 其 进行 预测 ,统计 本 文 实验 推荐 结 
酚 隐 准确 率 、 召 回 率 和 F, 值 。 同 时 ,为 了 进一步 验证 
本 实 提 出 方法 的 有 效 性 ,计算 当前 几 种 标签 推荐 ( 基于 
资源 内 容 的 推荐 .基于 相似 资源 的 推荐 .基于 相似 用 户 
的 办 厦 ) 的 各 值 并 进行 比较 。 为 方便 描述 ,将 本 文 提出 
的 难 荐 方法 简称 为 T+ U + C, 基 于 相似 资源 的 推荐 方 
法 短 称 为 tem-CF ,基于 相似 用 户 的 推荐 为 User-CF , 基 
于 痪 源 内 容 的 推荐 为 Contend-Based。 几 种 方法 的 比较 
结果 如 图 3 所 示 : 


0.30 
0.25 
a I+U+C 
be | 
指 0.15 Contend-Based 
中 
次 0.10 看 Item-CF 
| 国 User-CF 
0.05 | 四 
mn 
0.00 . 回首 | 
Precision Recall Fl 
评价 指标 


3 ” 几 种 方法 实验 结果 比较 


表 二 \ 表 14、 表 15 分 别 是 3 种 单一 推荐 方法 下 得 
到 的 结果 ,虽然 各 方法 所 推荐 的 标签 与 目标 资源 《 菊 与 
刀 》 的 情况 十 分 符合 ,都 能 明显 揭示 该 资源 特征 的 标 
签 , 但 考虑 实际 标注 情况 ,可 以 发 现 单一 推荐 方法 都 有 


首先 ,从 基于 相似 资源 的 推荐 结果 看 ( 表 12 ) ,该 
方法 是 从 标签 系统 中 资源 热门 标签 角度 出 发 的 ,其 推 
荐 结果 稳定 ,基本 上 都 能 很 好 地 描述 与 概括 资源 特征 ， 
且 由 于 其 来 源 是 热门 标签 ,因此 用 户 对 于 其 可 接受 度 
高 ,但 也 正 因为 这 样 使 得 结果 过 于 社会 化 ,标签 重复 率 
高 ,缺乏 新 前 性 ,用 户 可 选择 的 范围 受 限 ;从 基于 相似 
用 户 的 推荐 看 ( 表 14) ,该 结果 的 来 源 是 系统 中 用 户 所 
使 用 过 的 兴趣 标签 ,其 考虑 到 了 用 户 的 兴趣 偏好 ,结果 
高 度 准 确 , 且 有 新 颖 性 ,个 性 化 程度 高 ,但 有 时 却 过 于 
强调 用 户 个 性 而 受到 影响 ;从 基于 内 容 的 推荐 看 ( 表 
15 ) ,其 从 资源 内 容 标签 角度 出 发 ,标签 直接 抽取 自 资 
源 本 身 ,不 会 受到 社会 化 与 用 户 因素 影响 ,描述 精准 ， 
更 加 贴近 资源 本 身 ,但 却 会 受到 文本 内 容 各 方面 的 限 
制 ,其 所 推荐 的 结果 数量 是 几 种 方法 中 最 少 的 。 

对 比 3 种 单一 方法 ,本 文 提 出 方法 的 实验 结果 见 
表 16 ,推荐 结果 较为 理想 。 其 主要 针对 社会 标注 系统 
中 ,已 有 资源 ,标签 的 用 户 、 信 息 较 为 充足 的 情况 下 ,在 
户 准 备 标注 资源 时 ,从 资源 内 容 、 资 源 的 热门 标签 以 
及 用 户 曾 使 用 过 的 标签 3 种 角度 出 发 对 相关 信息 进行 
计算 ,向 其 进行 标签 推荐 ,但 不 适用 于 信息 特别 分 散 的 
情况 。 分 析 表 16 的 结果 ,该 方法 融合 3 种 推荐 技术 优 
点 并 一 一 对 应 标注 系统 中 3 种 标签 来 源 ,其 所 推荐 的 
标签 从 多 方面 角度 揭示 了 资源 的 特征 :有 来 自 资源 热 
门 的 社会 化 标签 (如 ”日 本 “文化 " ) ,有 来 自用 户 兴趣 
的 个 性 化 的 标签 (如 “美国 “人 类 学 ” ) ,出 自 资源 本 身 
的 关键 词 (如 “本 尼 迪 元 特 ”) ,覆盖 范围 广 ,并 且 都 较 
为 规范 ,效果 良好 ,同时 规避 了 冷 局 动 文 本 限制 等 问 
题 , 用 户 在 标注 时 可 选择 的 标签 范围 也 随 之 扩大 ,他们 
能 够 根据 自己 的 需求 与 对 资源 的 理解 来 选择 合适 的 标 
签 。 从 图 3 各 方法 实验 结果 数据 对 比 也 可 以 发 现 ,本 
文 的 方法 在 精确 率 、 召 回 率 以 及 也 值 这 几 个 指标 都 优 
于 其 他 几 种 方法 ,证 明了 该 方法 能 够 有 效 地 提高 推荐 
的 准确 度 。 

豆 办 网 是 目前 我 国 社会 标注 网 站 中 最 为 典型 的 代 
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表 , 不 论 是 国内 的 新 浪 微 博 、 知 乎 ,还 是 国外 的 Deli- 
cious ,Flickr( 图片 ) 等 网 站 都 与 豆 兴 一 样 ,其 标签 系统 
允许 用 户 采 用 自 定义 的 关键 词 来 对 资源 进行 标注 ， 
此 本 文昌 只 针对 豆 办 读书 这 一 类 数据 集 进 行 了 实验 ， 
但 只 要 是 利用 关键 词 作 为 资源 的 标注 ,本文 所 提出 的 
方法 都 适用 ,有 一 定 的 推广 性 。 


标签 推荐 与 一 般 个 性 化 推荐 不 同 , 需 要 考虑 用 户 、 
资源 与 标签 3 种 因素 ,上 且 现 有 推荐 方法 虽 不 同 程度 运 
用 了 协同 过 滤 思 想 ,但 在 计算 相似 度 时 却 简单 地 以 词 
共 现 为 基础 而 忽略 了 标签 间 的 语义 关系 ,影响 推荐 结 
果 的 准确 性 。 本 文 考虑 到 了 标签 间 及 资源 内 容 间 的 语 
治 信 息 ,并 从 资源 内 容 标签 资源 热门 标签 .用 户 兴 
. 发 ,融合 与 之 对 应 的 3 种 推 


题 蕊 率 上 的 分 布 作为 相似 度 计算 的 数据 基础 ,产生 
最 局 的 推荐 结果 。 从 实验 结果 可 以 看 出 ,本 文 提出 的 
泪 合 型 标签 推荐 方法 , 既 通 过 对 数据 的 降 维 及 运用 语 
六 六 系 提高 了 相似 度 计算 的 准确 性 ,又 能 使 推荐 结 

其 有 社会 化 及 新 颖 性 等 特点 ,还 能 缓解 冷 启 动 数据 稀 
距 人 问题 ,以 此 提高 标签 推荐 的 准确 性 和 标签 质量 ,一 
定 程度 上 达到 标签 规范 的 目的 ,可 以 为 将 来 的 标签 推 


其 喝 供 一 定 参考 。 但 本 文 为 了 清晰 论述 模型 ,在 进行 
实验 时 所 选 数 据 量 较 少 ,部 分 参数 使 用 经 验 值 ,同时 也 
Ey 


未 考虑 不 同 标签 推荐 个 数 间 的 差异 ,这 必然 会 对 实验 
结 权 有 所 影响 。 因 此 在 后 续 的 研究 工作 中 , 需 扩 大 数 
据 徐 ,检验 此 方法 在 大 规模 数据 集 上 的 效果 ,同时 改进 
相关 算法 ,研究 适合 此 模型 的 最 佳 参数 值 ,从 而 优化 推 
荐 过 程 , 提 高 推荐 结果 精确 性 ,使 理论 能 够 更 好 地 走向 
实践 。 
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Research on Tag Hybrid Recommendation Based on LDA Topic Model 
Xiong Huixiang Dou Yan 

School of Information Management, Central China Normal University, Wuhan 430079 

'Abstract: [Purpose/significance | For the current tag recommendation methods’ results not satisfied, this paper 
ailhs to improve the traditional similarity calculation method and combine a variety of tag recommendation methods to im- 
prove the recommended accuracy. | Method/ process | Based on the idea of content and collaborative filtering, LDA is used 
to alculate the similarity then find the neighbor of resources and users, and combine keywords which are extracted from 
resolrce contents to construct the tag hybrid recommendation model. Finally, “ Douban reading” is taken as an example to 
veriy the model’ s effectiveness and compared with several tag recommendation methods. [ Result/ conclusion | In the so- 
ci tagging system ,three dimensions including user, resource and tag should be considered. Only from one single angle 
wae nevitably cause incomplete results . At the same time, the introduction of LDA in similarity calculation can exploit the 
p&isilial semantic relation and improve the recommended quality. And the combination of a variety of ways to lear from 
eagp other can make the results more satisfactory. 


SeEKeywords: social tagging tag recommendation collaborative filtering LDA 
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